import pandas as pd
import numpy as np
import seaborn as sns
import plotly.express as px
import matplotlib.pyplot as plt
from matplotlib import pyplot as plt
%matplotlib inline


try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')


data.head(20)


data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64


for i in data['income_type'].unique():
    data.loc[(data['income_type'] == i) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == i), 'total_income'].median()


data['days_employed'] = data['days_employed'].abs()


data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64


data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])

array([1, 0, 3, 2, 4, 5])

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

71

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее образование',
       'покупка жилья для сдачи', 'на покупку автомобиля', 'ремонт жилью',
       'заняться высшим образованием'], dtype=object)

0    14091
1     4808
2     2052
3      330
4       41
5        9
Name: children, dtype: int64


data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5])


data = data[(data['children'] != -1) & (data['children'] != 20)]


data['children'].unique()

array([1, 0, 3, 2, 4, 5])


for i in data['income_type'].unique():
    data.loc[(data['income_type'] == i) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == i), 'days_employed'].median()


data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64


data['total_income'] = data['total_income'].astype(int)


data['education'] = data['education'].str.lower()


data.duplicated().sum()

71


data = data.drop_duplicates()


def categorize_income(income):
    try:
        if 0 <= income <= 50000:
            return 'Зарплата до 50 тыс.₽'
        elif 50001 <= income <= 100000:
            return 'от 50 до 100 тыс. ₽'
        elif 100001 <= income <= 150000:
            return 'от 100 до 150 тыс. ₽'
        elif 150001 <= income <= 200000:
            return 'от 150 до 200 тыс. ₽'
        elif 200001 <= income <= 250000:
            return 'от 200 до 250 тыс. ₽'
        elif 250001 <= income <= 300000:
            return 'от 250 до 300 тыс. ₽'
        elif 300001 <= income <= 350000:
            return 'от 300 до 350 тыс. ₽'
        elif 350001 <= income <= 400000:
            return 'от 350 до 400 тыс. ₽'
        elif 400001 <= income <= 450000:
            return 'от 400 до 450 тыс. ₽'
        elif 450001 <= income <= 500000:
            return 'от 450 до 500 тыс. ₽'
        elif income >= 500001:
            return 'Больше 500 тыс. ₽'
    except:
        pass


data['total_income_category'] = data['total_income'].apply(categorize_income)


data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее образование',
       'покупка жилья для сдачи', 'на покупку автомобиля', 'ремонт жилью',
       'заняться высшим образованием'], dtype=object)


def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'


data['purpose_category'] = data['purpose'].apply(categorize_purpose)


# смотрим уникальные значения столбца children
data.children.value_counts()

0    14091
1     4808
2     2052
3      330
4       41
5        9
Name: children, dtype: int64


# Напишем функицю для разбиения количества детей на категории
def children_category(count): 
    
    a = count['children']
    try:
        if a == 0:
            return 'Нет детей'
        elif a == 1:
            return '1 ребенок'
        elif a == 2:
            return '2 ребенка'
        elif a == 3:
            return '3 ребенка'
        elif a == 4:
            return '4 ребенка'
        elif a == 5:
            return '5 детей'
        return 'Многодетные'
    except:
        pass
    
data['children_category'] = data.apply(children_category, axis=1)
# Отсортируем по убыванию и видим предсказуемую закономерность 
data.groupby('children_category', as_index=False)['children'].count().sort_values('children', ascending=False)


# Функция которая нам подсчитает в процентах зависимость между количеством детей и возвратом кредита в срок
def children_analysis(data, index):
    
    # построим сводную таблицу
    data_children_pivot = data.pivot_table(index=index, \
                             values='debt', aggfunc=['sum', 'count', 'mean']).reset_index()
    
    # Переименуем столбцы, чтобы не запутаться.
    data_children_pivot = data_children_pivot.set_axis([index, 'sum_debt', 'count_family', 'correlation'], axis='columns')
    
    # Возвращаем и сортируем по возрастанию
    return data_children_pivot.sort_values('correlation')


# Добавляем немного стиля и красок и смотрим, что получилось
display(children_analysis(data, 'children_category') \
        .style.format({'correlation': '{:.2%}'}) \
        .background_gradient(cmap='Reds',subset='correlation'))


# Добавляем немного стиля и красок и смотрим, что получилось
display(children_analysis(data, 'children_category') \
        .style.format({'correlation': '{:.2%}'}) \
        .background_gradient(cmap='Reds',subset='correlation'))


fig = px.line(children_analysis(data, 'children_category'), x='correlation', y='children_category', title='График зависимости между количеством детей и возвратом кредита в срок')
fig.show()


display(children_analysis(data, 'family_status') \
        .style.format({'correlation': '{:.2%}'}) \
        .background_gradient(cmap='Reds',subset='correlation'))


display(children_analysis(data, 'family_status') \
        .style.format({'correlation': '{:.2%}'}) \
        .background_gradient(cmap='Reds',subset='correlation'))


plt.figure(figsize=(6,6))
ax = sns.barplot(data = children_analysis(data, 'family_status'), x ='family_status', y = 'correlation')
ax.set_xticklabels(children_analysis(data, 'family_status').family_status, rotation=45)
sns.despine()


display(children_analysis(data, 'total_income_category').sort_values(by='count_family', ascending=False) \
        .style.format({'correlation': '{:.2%}'}) \
        .background_gradient(cmap='Reds',subset='correlation'))


display(children_analysis(data, 'total_income_category').sort_values(by='count_family', ascending=False) \
        .style.format({'correlation': '{:.2%}'}) \
        .background_gradient(cmap='Reds',subset='correlation'))


display(children_analysis(data, 'total_income_category').sort_values(by='count_family', ascending=False) \
        .style.format({'correlation': '{:.2%}'}) \
        .background_gradient(cmap='Reds',subset='correlation'))


display(children_analysis(data, 'purpose_category') \
        .style.format({'correlation': '{:.2%}'}) \
        .background_gradient(cmap='Reds',subset='correlation'))


display(children_analysis(data, 'purpose_category') \
        .style.format({'correlation': '{:.2%}'}) \
        .background_gradient(cmap='Reds',subset='correlation'))

	family_status	sum_debt	count_family	correlation
2	вдовец / вдова	63	951	6.62%
1	в разводе	84	1189	7.06%
4	женат / замужем	927	12261	7.56%
3	гражданский брак	385	4134	9.31%
0	Не женат / не замужем	273	2796	9.76%

	total_income_category	sum_debt	count_family	correlation
2	от 100 до 150 тыс. ₽	619	7110	8.71%
3	от 150 до 200 тыс. ₽	403	4738	8.51%
10	от 50 до 100 тыс. ₽	331	4073	8.13%
4	от 200 до 250 тыс. ₽	162	2242	7.23%
5	от 250 до 300 тыс. ₽	88	1323	6.65%
6	от 300 до 350 тыс. ₽	51	617	8.27%
1	Зарплата до 50 тыс.₽	23	371	6.20%
7	от 350 до 400 тыс. ₽	24	329	7.29%
0	Больше 500 тыс. ₽	14	222	6.31%
8	от 400 до 450 тыс. ₽	13	195	6.67%
9	от 450 до 500 тыс. ₽	4	111	3.60%

	purpose_category	sum_debt	count_family	correlation
1	операции с недвижимостью	780	10751	7.26%
3	проведение свадьбы	183	2313	7.91%
2	получение образования	369	3988	9.25%
0	операции с автомобилем	400	4279	9.35%

3.1 Есть ли зависимость между количеством детей и возвратом кредита в срок?¶

3.2 Есть ли зависимость между семейным положением и возвратом кредита в срок?¶

3.3 Есть ли зависимость между уровнем дохода и возвратом кредита в срок?¶

Мое решение

3.4 Как разные цели кредита влияют на его возврат в срок?¶

3.5 Приведите возможные причины появления пропусков в исходных данных.¶

3.6 Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.¶

	children	days_employed	dob_years	education	education_id	family_status	family_status_id	gender	income_type	debt	total_income	purpose
0	1	-8437.673028	42	высшее	0	женат / замужем	0	F	сотрудник	0	253875.639453	покупка жилья
1	1	-4024.803754	36	среднее	1	женат / замужем	0	F	сотрудник	0	112080.014102	приобретение автомобиля
2	0	-5623.422610	33	Среднее	1	женат / замужем	0	M	сотрудник	0	145885.952297	покупка жилья
3	3	-4124.747207	32	среднее	1	женат / замужем	0	M	сотрудник	0	267628.550329	дополнительное образование
4	0	340266.072047	53	среднее	1	гражданский брак	1	F	пенсионер	0	158616.077870	сыграть свадьбу
5	0	-926.185831	27	высшее	0	гражданский брак	1	M	компаньон	0	255763.565419	покупка жилья
6	0	-2879.202052	43	высшее	0	женат / замужем	0	F	компаньон	0	240525.971920	операции с жильем
7	0	-152.779569	50	СРЕДНЕЕ	1	женат / замужем	0	M	сотрудник	0	135823.934197	образование
8	2	-6929.865299	35	ВЫСШЕЕ	0	гражданский брак	1	F	сотрудник	0	95856.832424	на проведение свадьбы
9	0	-2188.756445	41	среднее	1	женат / замужем	0	M	сотрудник	0	144425.938277	покупка жилья для семьи
10	2	-4171.483647	36	высшее	0	женат / замужем	0	M	компаньон	0	113943.491460	покупка недвижимости
11	0	-792.701887	40	среднее	1	женат / замужем	0	F	сотрудник	0	77069.234271	покупка коммерческой недвижимости
12	0	NaN	65	среднее	1	гражданский брак	1	M	пенсионер	0	NaN	сыграть свадьбу
13	0	-1846.641941	54	неоконченное высшее	2	женат / замужем	0	F	сотрудник	0	130458.228857	приобретение автомобиля
14	0	-1844.956182	56	высшее	0	гражданский брак	1	F	компаньон	1	165127.911772	покупка жилой недвижимости
15	1	-972.364419	26	среднее	1	женат / замужем	0	F	сотрудник	0	116820.904450	строительство собственной недвижимости
16	0	-1719.934226	35	среднее	1	женат / замужем	0	F	сотрудник	0	289202.704229	недвижимость
17	0	-2369.999720	33	высшее	0	гражданский брак	1	M	сотрудник	0	90410.586745	строительство недвижимости
18	0	400281.136913	53	среднее	1	вдовец / вдова	2	F	пенсионер	0	56823.777243	на покупку подержанного автомобиля
19	0	-10038.818549	48	СРЕДНЕЕ	1	в разводе	3	F	сотрудник	0	242831.107982	на покупку своего автомобиля

	children_category	children
5	Нет детей	14091
0	1 ребенок	4808
1	2 ребенка	2052
2	3 ребенка	330
3	4 ребенка	41
4	5 детей	9

	children_category	sum_debt	count_family	correlation
4	5 детей	0	9	0.00%
5	Нет детей	1063	14091	7.54%
2	3 ребенка	27	330	8.18%
0	1 ребенок	444	4808	9.23%
1	2 ребенка	194	2052	9.45%
3	4 ребенка	4	41	9.76%